Introduzione all'Apprendimento per Rinforzo Profondo (DRL)

L'Apprendimento per Rinforzo Profondo (DRL) unisce le capacità di rappresentazione ad alta dimensione dei Reti Neuronalì Profonde con il quadro teorico del controllo ottimale del Apprendimento per Rinforzo. A differenza dell'apprendimento supervisionato o non supervisionato, il DRL agenti apprende attraverso interazioni basate sul tentativo ed errore in un ambiente dinamico ambiente, prendendo decisioni sequenziali decisioni sequenziali senza etichette immediate ed esplicite. Questa integrazione consente agli agenti di gestire direttamente input complessi e grezzi (come dati in formato pixel).

1. Il Paradigma di Apprendimento del DRL

L'agente RL funziona in un ciclo continuo: osserva l'ambiente Stato ($S_t$), esegue un' Azione ($A_t$), e riceve un segnale scalare potenzialmente scarso o ritardato Ricompensa ($R_{t+1}$). La sfida principale è il problema della assegnazione del credito: determinare quali azioni passate siano responsabili di un segnale di ricompensa futura.

2. L'Obiettivo di Ottimizzazione

Lo scopo finale è scoprire una strategia ottimale, ovvero un policy ($\pi^*$), che è una mappatura dagli stati alle azioni, che massimizza il Rendimento cumulativo atteso scontato ($G_t$). Il fattore di sconto ($\gamma \in [0, 1]$) è matematicamente cruciale, definendo quanto diamo valore alle ricompense immediate rispetto a quelle previste molto nel futuro.

$$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$

The Fundamental RL Cycle

An illustration of the Markov Decision Process (MDP) framework. The Agent's policy dictates the action ($A_t$) based on the current state ($S_t$), leading the Environment to transition to a new state ($S_{t+1}$) and provide a reward ($R_{t+1}$).

The Reinforcement Learning Cycle: Agent, Environment, State, Action, Reward

Question 1

How does the DRL agent receive feedback from the environment?

Explicit labels/targets

Backpropagation through time

Scalar reward signal

Labeled demonstration data

Question 2

What does the policy ($\pi$) mathematically represent?

The predicted total reward

A distribution over actions given a state

The probability of transitioning to a new state

The error between predicted and actual returns

Challenge: The Discount Factor

Analyzing the Temporal Horizon.

Consider two scenarios:
1. $\gamma = 0$
2. $\gamma \approx 1$

Describe the agent's behavioral preference in each case regarding the timeline of rewards.

Step 1

How does the choice of $\gamma$ affect the policy's horizon?

Solution:
If $\gamma = 0$, the agent is myopic (shortsighted), focusing only on the immediate reward $R_{t+1}$. If $\gamma \approx 1$, the agent is far-sighted, equally weighting immediate and distant future rewards, leading to planning over a very long horizon.